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摘要 : [ 目的/ 意义] 针对 目前 网 络 招聘 文本 手工 抽取 技能 信息 无 法 满足 大 数据 量 分 析 要 求 的 问题 ,提出 一 
种 针对 大 量 网 络 招 聘 文本 的 技能 信息 自动 抽取 方法 。[ 方 法 /过 程 ] 根 据 网 络 招 聘 文本 的 特点 ,利用 依存 句法 分 
析 选 取 候 选 技能 ,然后 提出 领域 相关 性 指标 衡量 候选 技能 ,将 其 融入 传统 的 术语 抽取 方法 之 中 ,形成 一 种 网 络 
招聘 文本 技能 信息 自动 抽取 方法 。[ 结果/ 结论 ] 实验 表明 ,本文 提 出 的 方法 能 够 从 网 络 招聘 文本 中 自动 \ 快 速 、 
准确 地 抽取 技能 信息 。 
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y class="tBorderTop_box"><h2><span class="bname"> 职 关系 型 数据 库 
流浪 式 。 网 络 招 聘 文本 中 常 包含 招 聘 岗 位 所 需 技 能 处 位 信息 lt 0 a SQL 优化 
1 inbox"><p> 任 职 要 求 ，<p><p>1、 熟 悉 关 系 型 数据 库 ， 协议 

具体 描述 。 通 过 网 络 招 聘 文本 技能 信息 抽取 与 分 析 ， 并 有 二 SQL 优化 经 验 二 热 悉 HTTP 协议 ，3、 i 

Cs a 3 i 具有 良好 的 团队 合作 意识 。<jp><p> 五 险 一 金 ， 享受 齐 
FE 了 解 当前 就 业 市 场 对 某 个 领域 人 才 技 能 的 需求 ，。。| eight 人 mg， 名 加 才 医疗， 关 业 ， 工 人 生育 
为 济 校 制定 符合 企业 需求 的 专业 人 才 培 养 方案 提供 决 。 "295 

二 二 ， 2 > 宇 个 

招 央 难 的 问题 。 特 别 地 ,从 非 结 构 化 网 络 招 聘 文本 中 
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析 的 基础 。 图 1 为 网 络 招聘 文本 所 包含 的 技能 信息 抽 。 次 融 的 非 技能 闻 串 ,如 开发 经 验 “ 相 关羽 业 “熟悉 


取 吕 例 ,其 中 * 关系 型 数据 库 ”“SQL 优化 "“HTTP 协 Linux 等 。 本 文 根 据 网 络 招聘 文本 的 特点 ,提出 首先 


议 ” 等 为 岗位 所 要 求 的 技能 信息 。 然 而 ,目前 相关 研究 ”利用 依存 句法 分 析 选 取 候选 技能 ,然后 提出 领域 相关 
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通常 采用 手工 方法 从 网 络 招聘 文本 中 抽取 技能 信 性 概念 ,以 度量 候选 技能 的 领域 相关 性 ,最 后 将 其 融入 
息 " "1。 显然 ,手工 方法 很 难 满足 高 速 发 展 的 信息 时 Cnalue 方法 之 中 ,形成 一 种 改进 的 C -value 网 络 招聘 


DY 


代 下 大 数据 量 网 络 招聘 文本 技能 信息 分 析 的 要 求 。 文本 技能 信息 自动 抽取 方法 。 实 验 表明 ,本 文 提出 的 


技能 信息 为 特定 领域 中 特定 岗位 对 所 需 人 才 的 专 方法 能 够 从 网 络 招聘 文本 中 自动 .快速 .准确 地 抽取 技 
业 知 识 和 技术 的 要 求 , 其 本 质 为 描述 特定 领域 中 知识 能 信息 。 
活动 理论 概念 的 术语 。 因 此 ,网 络 招聘 文本 技能 信息 2 相关 研究 
抽取 任务 可 以 借鉴 术语 抽取 人 研究 中 的 方法 。 特 别 地 ,C 了 和 
-alue 方法 四 是 一 种 常见 的 \ 简 单 高 效 的 术语 抽取 方 。 全 1 由 络 招 聘 文 本 技能 信息 抽取 
法 。 然 而 由 于 C-value 方法 主要 基于 词 串 在 语 料 集中 通 角 人 研究 采 ) 手工 抽取 技 能 信息 的 方法 。 如 :1. 
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Wowczko' "| 手工 抽取 和 映射 招聘 中 
等 中 手工 分 析 数 据 科学 家 招聘 信息 ,总 结 企业 对 数学 
职业 家 一 职 的 专业 以 及 学 历 要 求 。A. D，Mauro 等 
结合 专家 判断 ,分 析 2 700 条 大 数据 相关 岗位 信息 , 划 
分 出 4 个 领域 相关 的 工作 类 型 ,并 对 每 一 个 工作 类 型 
所 需 的 技能 和 熟练 程度 要 求 进行 评估 。 吕 斌 等 扫 、 李 
国 秋 等 手工 调研 300 个 情报 职业 招聘 网 页 ,分 析 社 
会 组 织 的 情报 职业 需求 ,以 及 社会 组 织 中 情报 职业 类 
型 职责 和 作用 等 。 夏 火 松 和 潘 徐 听 "对 比 硕 博 士 论 
文 以 及 招聘 网 站 硕 博士 相关 招聘 信息 ,分 析 我 国 大 数 
据 在 学 界 和 业界 的 现状 ,发 现 我 国 大 数据 企业 人 才 需 
求 与 高 校 学 术 研究 之 间 的 关系 。 黄 央 等 "手工 抽取 职 
位 基本 信息 .岗位 职责 和 任职 要 求 , 分 析 大 数据 岗位 对 
人 入 知识 和 能 力 的 要 求 ,并 对 图 书馆 情报 学 科 人 才 适 
应 国内 大 数据 环境 下 的 培养 方案 提出 建议 。 
显然 ,手工 方法 很 难 胜任 大 数据 量 非 结 构 化 环境 
于 网 络 招聘 信息 分 析 要 求 。 一 些 研究 尝试 使 用 基于 
锻 屠 资源、 基于 规则 和 基于 统计 的 方法 自动 抽取 网 络 
担 彩 文本 的 技能 信息 。 
四 基于 外 部 资源 的 方法 利用 技能 词典 、 维 基 百 科 等 
次 源 构建 技能 词典 ,然后 与 网 络 招聘 文本 的 信息 匹配 
抽取 技能 信息 。 如 :M，S，Sodhi 和 BG，Son™ 通过 
树 奸 运筹 学 专业 核心 技能 词 奥 研 究 该 专业 招聘 文本 信 
息 5 人 研究 不 同行 业 对 运筹 专业 技能 需求 的 差异 。M 
Zi@ 等 "使 用 常规 短语 .领域 专家 预定 义 的 各 种 术语 
分 铂 招 聘 网 页 ,使 用 维基 进行 去 重 和 规范 化 。T. Xu 
等 池 从 CSDN 网 站 下 载 技能 种 类 和 具体 技能 ,包括 54 
个 绒 能 种 类 和 1 729 个 技能 ,构建 了 技能 字典 。 詹 
川 丰 参考 已 有 的 电子 商务 专业 术语 ,构建 该 专业 的 术 
语词 典 ,从 招聘 文本 中 抽取 高 于 一 定 频数 的 技能 关键 
词 并 归 类 ,分 析 电 商 各 岗位 的 需求 .技能 整体 需求 和 各 
个 岗位 特别 需求 的 技能 。 夏 立新 等 ' 利用 中 华 教育 
在 线 职 业 大 全 招聘 网 岗位 分 类 ,论文 关键 词 构建 专 
业 、 岗 位 和 知识 点 词典 ,通过 挖掘 招聘 文本 信息 ,形成 
网 络 文本 挖掘 的 “专业 - 岗位 - 知识 点 ”的 就 业 需 求 
关系 。 

基于 规则 的 方法 利用 技能 信息 出 现 位 置 的 特征 ， 
人 工 构造 规则 模板 ,通过 规则 匹配 实现 技能 信息 抽取 。 
如 , M. Bastian A 利用 逗号 进行 匹配 ,抽取 LinkedIn 
网 络 招聘 文本 中 的 技能 信息 ,将 频次 低 于 阔 值 的 过 滤 ， 
并 使 用 维基 进行 技能 规范 化 处 理 。 

基于 统计 的 方法 主要 利用 语料库 训练 某 个 词 作为 
技能 信息 的 概率 , 若 大 于 某 一 阔 值 , 则 认为 是 技能 信 
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息 。 如 刘 割 伦 等 采用 人 工 标注 和 改进 的 词 频 统 计 
信息 识别 招聘 信息 文本 中 信息 ,利用 聚 类 算法 和 轮廓 
稀 朴 确定 实体 转化 成 向 量 的 最 佳 维度 大 小 和 聚 类 个 
数 ,抽取 招聘 网 站 关于 大 数据 的 工作 岗位 信息 。 

总 体 来 说 ,目前 网 络 招聘 文本 技能 抽取 仍然 以 手 
工 抽取 方法 为 主 ,不 能 适应 大 数据 时 代数 据 快速 变化 、 
数据 量 大 的 要 求 ;而 基于 外 部 资源 的 方法 存在 外 部 资 
源 更 新 较 慢 覆盖面 较 窗 的 问题 ;基于 规则 和 统计 的 方 
法 则 存在 方法 过 于 简单 .结果 不 尽 理想 等 问题 。 

2.2 术语 抽取 

术语 抽取 指 从 文本 中 自动 发 现 术 语 的 过 程 。 目 
前 ,术语 抽取 方法 可 分 为 无 监督 方法 和 有 监督 方法 两 
大 类 。 无 监督 方法 通常 利用 语言 学 与 统计 学 相 结合 的 
方法 ,具有 较 少 人 工 干预 , 较 强 的 适用 性 和 一 致 性 等 优 
点 ;有 监督 方法 采用 机 器 学 习 方法 ,通过 学 习 训 练 文本 
地 征 ,构造 模型 抽取 术语 ,能 够 弥补 无 监督 方法 无 法 识 
别 低频 术语 的 缺陷 ,具有 较 高 术语 抽取 准确 率 和 召回 
率 , 但 需要 大 规模 人 工 标注 语 料 作为 训练 数据 ,并 且 方 
法 还 不 成 熟 , 需 要 更 多 的 尝试 与 验证 "9 。 目 前 网 络 招 
聘 技能 信息 抽取 任务 没有 大 规模 标注 语料库 ,因此 ,本 
文 着 重 研究 使 用 无 监督 方法 。 

无 监督 方法 通常 首先 从 语料库 中 选取 候选 术语 ， 
然后 利用 统计 信息 计算 候选 术语 成 为 术语 的 可 能 性 。 
一 般 使 用 术语 性 和 单元 性 度量 候选 术语 成 为 术语 的 可 
能 性 。 术 语 性 衡量 一 个 候选 术语 对 领域 知识 的 表达 能 
力 。 单 元 性 度量 候选 术语 结构 的 稳定 程度 。 特 别 地 ,C 
-value 方法 中 是 一 种 简单 高 效 的 基于 术语 性 的 术语 抽 
取 方 法 '" 。 国 内 外 有 较 多 该 方法 的 应 用 "”-”。 然 而 ， 
由 于 C-value 方法 主要 基于 词 串 在 语 料 集中 出 现 的 频 
次 ,无 法 有 效 过 滤 语 料 库 中 出 现 频次 高 的 非 术 语词 串 。 
针对 这 个 问题 ,较为 典型 的 方法 是 引入 互信 息 和 邻接 
粒 两 种 统计 量 , 重 构 C-value 目标 函数 ”。 互 信息 计 
算 候选 术语 中 各 词 依赖 程度 ,互信 息 值 越 大 ,表明 候选 
术语 中 各 词 的 依赖 程度 越 大 , 越 可 能 是 是 术语 叫 。 邻 
接 炳 衡量 候选 术语 左右 邻接 词 的 不 确定 性 ,其 不 确定 
性 越 大 ,表明 其 邻接 词 包含 的 信息 越 多 , 越 可 能 是 术 
语 叫 ] 。 然 而 ,网 络 招聘 文本 中 一 些 非 技能 词 串 频繁 共 
同 出 现 ,具有 较 高 的 互信 息 值 ,如 “相关 专业 ”工作 
经 验 ” 等 ,因此 ,互信 息 不 能 很 好 地 衡量 候选 术语 。 同 
样 地 ,网 络 招聘 文本 中 一 些 高 频 非 技能 词 串 具有 较 高 
的 邻接 炉 , 如 “熟练 使 用 “具有 良好 ”等 ,也 不 能 很 好 
地 衡量 候选 术语 。 

总 体 来 说 ,术语 抽取 研究 已 经 取得 一 定 的 成 果 , 但 
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是 如 果 直 接 将 这 些 方法 应 用 到 网 络 招聘 文本 技能 信息 
抽取 之 中 ,将 造成 技能 信息 抽取 准确 率 和 召回 率 低 的 


问题 。 


3 ”网 络 招聘 文本 技能 信息 自动 抽取 方法 
本 文 根 据 网 络 招聘 文本 的 特点 ,首先 利用 依存 句 
法 分 析 选 取 候 选 技能 ,然后 提出 技能 领域 相关 性 概念 ， 
在 欲 抽取 的 目标 领域 网 络 招聘 文本 集 的 基础 上 ,引入 
非 目标 领域 网 络 招聘 文本 集 , 以 度量 技能 信息 的 领域 
相关 性 ,以 改进 C-value 方法 。 方 法 流程 如 图 2 所 示 ， 
主要 包括 预 处 理 (第 3.1 节 )、 基于 依存 句法 分 析 的 候 
选 技能 选取 (第 3.2 节 ) 、C-value 值 计 算 ( 第 3.3 节 )、 


领域 相关 性 度量 (第 3.4 节 ) 和 融入 领域 相关 性 的 C- 


value 值 计算 (第 3.5 节 ) 等 步 又 。 


性 的 C-value 
信和 计算 


击 不 理 | 基于 依存 句法 分 析 | C-value 信 
的 候选 技能 选取 计算 De 


领域 相关 


性 度量 
a 
技 衣 
信息 
GAN 图 网 络 招聘 文本 技能 信息 自动 抽取 方法 流程 


33< 预 处 理 

(5 由 于 招聘 文本 是 非 结构 化 的 网 页 结构 ,而 且 除 了 
包 给 技能 等 所 需 信息 之 外 ,还 包括 其 他 大 量 噪音 信息 ， 
如 吧 告 .图片 动画 .与 主题 无 关 的 超 链接 ,脚本 语言 以 
及 留 类 标签 。 因 此 ,首先 针对 网 页 文本 结构 ,使 用 
Beautiful Soup 等 网 页 文本 分 析 工 具 定位 、 解 析 网 络 内 
容 ,获得 技能 要 求 文本 。 然 后 ,对 获取 的 相关 文本 内 容 
进行 去 重 、 英 文大 小 写 转化 去 除 特殊 字符 等 操作 。 图 
3 为 网 络 招聘 文本 预 处 理 示例 。 
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1、 熟 悉 关 系 型 数据 库 ， 


i ="bname"> 职 

es ><h2><span class="bname"> 到 并 有 一 定 的 SQL 优化 经 

永 信 息 < ></h2><di 一 "| j 

人 息 i <div 人 验 ; 2、 熟悉 HTTP 协议 ; 
"><p> 任 职 要 求 ，<fp><p>1、 熟 悉 关 系 型 数据 库 ， 

inbox"><p> 任 fh 3、 具 有 良好 的 团队 合作 


并 有 一 定 的 Sql 优化 经 验 2、 熟 悉 http 协议 ， 3、 具 有 意识 
良好 的 团队 合作 意识 。</p><p> 五 险 一 金 : 享受 齐全 的 


社会 保险 ， 包 括 养老 、 医 疗 、 失 业 、 工 伤 、 生 育 、 以 
及 住房 公积金 … 


3” 预 处 理 示 例 


3.2 ”基于 依存 句法 分 析 的 候选 技能 选取 
已 有 的 研究 通常 利用 连续 名 词 ,动词 等 词 串 选取 


候选 技能 ” 。 然 而 ,这 种 方法 会 包括 大 量 噪声 动词 的 
非 技 能 词 串 ,如 "熟练 使 用 “熟悉 HITP 协议 ”等 ,从 
而 造成 最 终 技能 抽取 准确 率 低 ;但 是 如 果 选 取 不 包含 
动词 的 候选 技能 词 串 , 则 可 能 遗漏 一 些 候选 技能 ,如 
“SQL 优化 ”中 的 “优化 ”一 词 为 动词 ,从 而 造成 最 后 技 
能 抽取 召回 率 低 。 

通过 分 析 网 络 招聘 文本 可 以 发 现 ,包含 技能 信息 
的 文本 通常 为 动 宾 结构 ,如 "熟悉 关系 型 数据 库 ”。 
此 ,本 文 提 出 利用 依存 句法 分 析 , 以 剔除 "熟悉 ”等 噪 
声 动 词 。 依 存 句法 分 析 通 过 语句 单位 内 词语 间 的 依存 
关系 揭示 词语 间 的 语义 修饰 关系 。 其 中 ,依存 关系 使 
有 有 向 弧 表 示 , 由 支配 词 指向 其 从 属 词 ,并 且 依 存 句 法 
分 析 认 为 语句 中 的 支配 者 是 核心 动词 。 根 据 依存 语法 
公理 ” ,在 一 个 语句 中 ,依存 句法 分 析 将 语句 的 线性 
结构 层次 化 ,构造 成 为 依存 树 。 图 4 为 使 用 哈尔滨 工 
业 大 学 语言 技术 平台 发 布 的 依存 句法 分 析 器 ” ,分 
别 对 语句 "熟悉 关系 型 数据 库 “ 并 有 一 定 的 SQL 优化 
经 验 "“ 熟 悉 HTTP 协议 ”和 “具有 良好 的 团队 合作 意 
识 ” 进 行 依存 句法 分 析 之 后 得 到 的 依存 树 TI1 、T2 .T3 
和 T4。 图 4 中 ,Root 分别 指 向 语句 的 核心 动词 “熟悉 ” 
“有 ”具有 ”, 结 点 下 的 字母 表示 词性 ,v 表示 动词 n 
表示 名 词 e 表示 连词 b 表示 区 分 词 u 表示 助词 .ws 
表示 外 文 词 .a 表示 形容 词 。 


| 


er 
Root 熟悉 关系 型 数据 库 Root 并 有 一 定 的 SQL 优化 经 验 
v n n e v b 也 Ws v n 
(aT (b) T, 


Root 熟悉 HTTP 协议 Root 具有 良好 的 团队 合作 意识 


Ws n u n Vv n 


QT, QT 
图 4 依存 树 示例 


据 此 ,本 文 将 Root 指向 语句 的 核心 动词 剔除 , 保 
留 剩余 所 有 动词 名词 ,外文 词 等 实 词 ,采用 n-gram 策 
略 ,将 频次 大 于 1 次, 且 长 度 在 1-4 的 词 串 作 为 候选 
技能 。 表 1 为 对 图 4 利用 依存 句法 分 析 选 取 的 候选 技 
能 ,并 使 用 传统 的 方法 进行 比较 ,其 中 依存 句法 分 析 中 
Root 指向 的 核心 动词 使 用 粗 体 表示 。 由 表 1 可 见 , 使 
用 基于 依存 句法 分 析 得 到 的 候选 技能 包含 更 少 的 噪音 
词 串 , 有 效 地 过 滤 了 “熟悉 “具有 ”有 "等 词 。 
3.3 ”Co-value 值 计 算 

Cwalue 方法 为 每 个 候选 技能 计算 术语 性 ,统计 信 
息 包括 候选 技能 的 词 频 、 词 长 .包含 当前 候选 技能 的 更 
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表 1 候选 技能 选取 方法 比较 示例 


传统 方法 基于 依存 句法 分 析 的 方法 
熟悉 关系 型 
关系 型 数据 库 
数据 库 关系 型 数据 库 
数据 关系 型 SQL 
关系 型 数据 库 优化 
熟悉 关系 型 数据 库 经 验 
有 SQL 优化 
SQL 优化 经 验 
优化 SQL 优化 经 验 
经 验 HTTP 
SQL 优化 协议 
优化 经 验 HTTP 协议 
SQL 优化 经 验 团队 
HTTP 合作 
协议 意识 
熟悉 HITP 团队 合作 
HTTP 协议 合作 意识 
熟悉 HTTP 协议 团队 合作 意识 
具有 
团队 
合作 
意识 
团队 合作 
合作 意识 


雹 民选 术语 的 频次 和 个 数 。C -value 值 计算 方法 如 公 


二 loglx| ， Bo x“ 未 被 套 

Cyalue(x) = 

SY To 0 Hi 3) 基 
公式 (1) 


其 中 ,x 表示 候选 技能 ;1x1 表示 x 的 长 度 ; 太 ” 表 
示 x 在 网 络 招聘 文本 目标 集 T 中 出 现 的 频次 ;C, 表示 
网 络 招聘 文本 目标 集 包 含 x 的 候选 技能 集合 ;1C, 1 表 
示 集 合 C, 中 元 素 个 数 。 由 公式 (1) 可 知 ,C-value 与 该 
候选 技能 在 目标 语 料 中 频次 有 关 ,频次 越 高 ,其 术语 度 
越 大 。 在 此 基础 上 ,又 考虑 了 候选 技能 的 长 度 , 认 为 长 
串 出 现 频次 比 短 串 出 现 频次 更 有 意义 ,是 技能 的 可 能 
性 更 大 。 
3.4 ”领域 相关 性 度量 

为 了 度量 候选 技能 的 领域 相关 性 ,本 文 首先 衡量 
候选 技能 中 每 个 词 的 领域 相关 性 ,然后 依据 每 个 词 的 
领域 相关 性 ,计算 得 到 候选 技能 词 串 的 领域 相关 性 。 
3.4.1 词 领域 相关 性 度量 技能 信息 由 若干 词组 成 ， 
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因此 ,本 文 首先 提出 词 领域 相关 性 (domain relevance， 
DR ) ,描述 词 与 特定 领域 的 关联 程度 。 具 体 地 ,给 定 目 
标 领 域 网 络 招 聘 文本 集 T 和 包含 非 目 标 领 域 网 络 招 聘 
文本 集 NT, 通 过 比较 词 w 在 目标 领域 网 络 招聘 文本 集 
T 和 非 目标 领域 网 络 招聘 文本 集 NT 出 现 频次 ,其 定义 
如 公式 (2) 所 示 : 


(7) 
p 


DR -7 公式 (2) 


7) 
其 中 ,Po - 疙 表示 w 在 目标 领域 网 络 招聘 文 
本 集 T 中 出 现 的 概率 ,t” 表 示 词 w 在 T 中 出 现 的 频 


次 ,1TI| 表 示 目 标 领 域 网 络 招聘 文本 集 包含 的 词 数 ;类 
NT) 
似 地 ,p,” = 估 < 表示 w 在 非 目 标 领域 网 络 招聘 文 
本 集 NT 中 出 现 的 概率 ,yf” 表 示 词 w 在 NT 中 出 现 的 
频次 ,1NTI 表 示 非 目标 领域 网 络 招聘 文本 集 包含 单词 
数 。 由 公式 (2) 可知 , 当 DR 值 越 大 ,表明 词 与 目标 领 
域 越 相 关 ; 反 之 ,DR 值 越 小 ,表明 词 与 目标 领域 越 不 相 
关 。 
3.4.2 ”候选 技能 领域 相关 性 度量 ”候选 技能 包含 若 
干 个 词 x% = 4wi,w,,…,w| ,根据 词 的 领域 相关 性 , 度 
量 候 选 技能 词 串 与 特定 领域 的 相关 程度 。 具 体 地 , 计 
算 方法 如 公式 (3) 所 示 : 
DR DR 公式 (3) 

其 中 ,DR 表示 基于 候选 技能 x 在 目标 领域 T 的 
领域 相关 程度 ;由 定义 可 知 , 只 有 当 候选 技能 中 的 每 个 
词 都 具有 较 高 领域 相关 性 时 ,候选 技能 才 具 有 较 高 的 
领域 相关 性 。 
3.5 ”融合 领域 相关 性 的 C-value 值 计算 

当 候 选 技能 C-value 值 越 大 ,领域 相关 性 越 大 , 则 
越 可 能 是 技能 。 因 此 ,本 文 提出 融合 领域 相关 性 的 C- 
value 值 计算 ,以 度量 候选 术语 成 为 技能 的 可 能 性 。 计 
算 方法 如 公式 (4) 所 示 : 

DRC-value(%) = DR x C-value (x) 公式 (4) 

最 后 ,将 融合 领域 相关 性 的 C-value 值 进行 降序 排 
列 ,前 若干 个 候选 技能 作为 被 抽取 的 技能 。 


4.1 数据 集 

为 了 验证 本 文 提出 方法 的 可 行 性 与 有 效 性 ,实验 
抓 取 国内 主流 招聘 网 站 "前程 无 优 ”(www. 51job. com ) 
数据 ,抽取 计算 机 领域 的 招聘 文本 技能 信息 。 前 程 无 
忧 是 一 家 网 络 招聘 服务 提供 商 ,是 中 国 最 具 影 响 力 的 
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人 才 招 聘 网 站 之 一 。 按 照 职 能 ,在 前 程 无 优 网 站 选取 
“计算 机 /互联 网 /通信 /电子 "职能 抓 取 数据 作为 网 络 
招聘 文本 目标 集 ,数据 抓 取 日 期 为 2018 年 3 月 19 日 
至 2018 年 3 月 26 日 。 在 前 程 无 忧 招聘 网 站 依次 选取 
其 他 非 计 算 机 领域 相关 职能 抓 取 数据 ,数据 抓 取 日 期 
为 2018 年 3 月 19 日 至 2018 年 3 月 26 日 。 抓 取 后 的 
网 页 文本 去 除 本 科 以 下 学 历 .内 容重 复 .全 英文 .没有 
写 明 任职 要 求 的 网 络 招聘 文本 ,最 后 得 到 的 数据 基本 
信息 如 表 2 所 示 。 
表 2 ”数据 集 基本 信息 


目标 领域 网 络 招 聘 文本 集 计算 机 /互联 网 /通信 /电子 10 000 
非 目标 领域 网 络 招聘 文本 集 保险 2 000 
ee 会 计 、 审 计 2 000 
ea 房地产 2 000 
(OO 建筑 .建材 .工程 2 000 
< 十 广告 2 000 
会 电气 .电力 \ 水 利 2 000 
OO 电子 技术 半导体、 集成 电路 。 ”2 000 
Ja 民 装 纺织 .皮革 2 000 
机 械 \ 设 备 、 重 工 2 000 
CN 家 居室 内 设计 装潢 2 000 
已) 家 居 家 电 、 玩 具 、 礼 品 2 000 
A 检测 ,认证 2 000 

> 教育 .培训 2 000 
S< 金融 ,投资 证券 2 000 
酒店 旅游 2 000 


na 


4s9= 实验 步骤 与 评估 标准 

(实验 首先 对 目标 领域 网 络 招聘 文本 集 和 非 目 标 领 
域 网 络 招聘 文本 集 进 行文 本 预 处 理 。 利 用 依存 句法 分 
析 ,选取 候选 技能 。 利 用 非 目 标 领 域 网 络 招聘 文本 集 ， 
计算 候选 技能 中 每 个 词 的 领域 相关 性 ,以 获得 候选 术 
语 的 领域 相关 性 。 最 终 将 其 融入 候选 技能 C -value 值 
之 中 , 按 值 降序 排列 ,选取 前 N 个 候选 技能 作为 被 抽取 
的 技能 。 

人 工 判定 前 N 个 候选 技能 信息 是 否 正 确 , 从 而 计 
算出 方法 的 准确 率 。 同 时 ,从 目标 领域 网 络 招聘 文本 
集中 随机 抽取 500 篇 招聘 文本 , 人工 识别 其 中 的 技能 
信息 ,检验 方法 的 召回 率 。 最 后 ,结合 准确 率 和 召回 率 
得 到 下 值 指标 ,以 评 佑 方法。 准确 率 、 召 回 率 和 下 值 计 
算 方 法 见 公 式 (5) -公式 (7): 

4 技能 信息 关 
准确 率 = 号 册 的 拉 能 从 中 歼 “x 100% 


公式 (5) 


如 回 率 - 正确 抽取 的 技能 信息 数 


正确 技能 信息 数 。 1% 
公式 (6) 
F 值 =2x 淮 多 汪 关 他 四 汪 x100%% 公式 (7) 


4.3 实验 结果 

4.3.1 基于 依存 名 法 分 析 的 候选 技能 选取 的 有 效 性 
实验 首先 验证 基于 依存 句法 分 析 的 候选 技能 选取 的 有 
效 性 。 为 此 ,实验 分 别 使 用 传统 的 候选 技能 选取 方法 
和 本 文 的 基于 依存 句法 分 析 的 候选 技能 选取 方法 , 然 
后 均 使 用 C-value 值 排序 候选 技能 。 前 一 种 方法 称 为 
C-value ,后 者 称 为 DepC-value。 实 验 比 较 结果 见 图 5 - 
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图 5 Cw-value 与 DepC-value 方法 准确 率 比较 


30 —A—C-value 


—X— DepC-value 
60 


召回 率 ( %】 
十 


图 6 Calue 与 DepC-value 方法 召回 率 比 较 


由 图 5 - 图 7 可 见 ,DepC -value 方法 准确 率 、 召 回 
率 和 了 值 高 于 C-value 方法 ,这 表明 使 用 基于 依存 句法 
分 析 选 取 候 选 术 语 的 有 效 性 。 基 于 依存 句法 分 析 的 候 
选 技能 选取 方法 针对 网 络 招聘 文本 技能 要 求 语句 通常 
为 动 宾语 句 的 特点 ,过 滤 掉 不 必要 的 噪声 动词 ,从 而 提 
高 了 技能 抽取 的 准确 率 和 召回 率 。 特 别 地 ,该 方法 还 
大 幅度 减少 了 候选 技能 的 数目 ,从 而 缩短 了 后 续 计算 
时 间 。 

表 3 为 频次 最 高 的 前 10 个 通过 依存 句法 分 析 被 
剔除 的 噪声 动词 。 由 表 3 可 见 ,通过 依存 句法 分 析 , 可 
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—A—C-value 
—x%—DepC-value 


7 Cz-value 与 DepC-value 方法 F 值 比较 


以 准确 过 滤 噪 声 动 词 ,从 而 减少 不 正确 的 候选 技能 。 
表 4 为 C-value 方法 和 DepC-value 方法 的 前 10 个 被 抽 
取 技能 。 其 中 ,基于 依存 句法 分 析 剔 除 的 动词 使 用 粗 
体 玫 示 。 由 表 4 可 以 看 到 ,由 于 传统 的 候选 技能 术语 
天 身 过 让 不 必要 的 动词 ,而 含有 这 些 动词 词 昌 的 候选 
捷 能 大 量 存在 ,不 仅 造成 计算 时 间 长 ,也 造成 C-value 
,从 而 降低 了 技能 抽取 的 准确 率 和 召回 率 。 相 反 ， 
oo 
多 


过 滤 一 部 分 噪声 动词 ,从 而 获得 更 高 的 技能 抽取 


1 信和 尝 和 如 回 率 。 

© 表 3 前 10 个 被 剔除 的 噪声 动词 

序 中 被 吻 除 的 噪声 动词 例句 
> 有 有 arcgis 开发 经 验 

3< 熟悉 熟悉 web 接口 
码 具有 具有 1 -3 年 的 数据 仓库 测试 经 验 
和 具备 具备 服务 器 的 部 署 配 置 能 
三 了 解 了 解 js 模块 化 
OO) 理解 深入 理解 软件 架构 及 设计 模式 
7 掌握 熟练 掌握 网 络 通信 
8 对 对 分 布 式 储存 计算 有 较 深入 了 解 
9 包括 包括 前 端 技 术 

10 拥有 拥有 erp 项目 经 验 


表 4 Co-value 和 DepC -value 方法 的 前 10 被 抽取 技能 


序号 Cvalue DepC value 
1 相关 专业 相关 专业 
2 工作 经 验 工作 经 验 
3 有 良好 团队 合作 精神 
4 熟练 使 用 沟通 能 力 
5 团队 合作 精神 学 习 能 力 
6 沟通 能 力 需求 分 析 
7 具有 良好 Java 开发 
8 有 较 强 相关 工作 经 验 
9 有 一 定 责任 心 强 
10 具备 良好 团队 协作 能 力 
4.3.2 领域 相关 性 度量 的 有 效 性 ”接着 ,实验 评估 了 
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领域 相关 性 度量 的 有 效 性 。 在 上 一 个 实验 DepC -value 
方法 的 基础 上 ,使 用 领域 相关 性 结合 C-value 方法 重新 
评 佑 候选 技能 ,得 到 DepDRC -value 方法 。 

DepC -value 方法 与 DepDRC -value 方法 的 比较 结果 
见 图 8 -图 10。 由 图 8 -图 10 可 见 ,DepDRC -value 方 
法 准确 率 、 召 回 率 和 下 值 明显 高 于 DepC-value 方法 , 表 
明 融 入 候选 技能 的 领域 相关 性 度量 ,能 够 明显 提高 技 
能 抽取 的 准确 率 、 召 回 率 和 下 值 。 


准确 率 ( %) 
二 


20 —A—DepC-value 
—x—DepDRC-value 
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8 DepC-value 与 DepDRC-value 方法 准确 率 比较 
100 


80 
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图 10 DepC~value 与 DepDRC-value 方法 FF 值 比较 
表 5 显示 DepC -value 方法 和 DepDRC -value 方法 
的 前 10 个 被 抽取 技能 。 其 中 ,正确 的 技能 使 用 粗 体 表 
示 。 由 表 5 可 见 ,DepDRC -value 方法 通过 度量 候选 技 
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能 的 领域 相关 性 ,从 而 有 效 降低 低 领 域 相关 候选 术语 
DRC walue 值 ,如 “相关 专业 ”工作 经验 ”等 。 而 一 些 
具有 较 高 领域 相关 度 的 候选 技能 ,如 "SQL 语句 ” 
“Linux 常用 命令 ”等 ,增加 了 其 DRC -value 值 ,从 而 使 
DepDRC -value 方法 获得 更 高 的 技能 抽取 准确 率 、 召 回 
率 和 FF 值 。 

表 5 DepC-value 和 DepDRC-value 方法 的 


前 10 被 抽取 技能 
序号 DepC -value DepDRC -value 
1 相关 专业 SQL 语句 
工作 经 验 Linux 常用 命令 
团队 合作 精神 关系 数据 库 MySQL 
沟通 能 力 SQL 查询 语句 
学 习 能 力 MySQL 主 从 复制 
需求 分 析 SQL 关系 数据 库 
Java 开发 关系 数据 库 SQL 
相关 工作 经 验 JavaScript 程序 模块 
责任 心 强 MySQL 关系 数据 库 
团队 协作 能 力 Lamada 表达 式 


4ja3 与 其 他 方法 比较 ”为 验证 本 文 提出 方法 的 有 
效 加 ,比较 以 下 4 种 方法 :QDC-value: 使 用 传统 方法 先 
联 候 选 技能 ,根据 C-value 值 度量 候选 技能 ;DMIC -val- 
us 陋 用 传统 方法 选取 候选 技能 ,将 候选 技能 的 互信 息 
三 C-value 之 中 ,形成 MIC -value 方法 加 ,OEnC -val- 
ue3 午 用 传统 方法 选取 候选 技能 ,将 候选 技能 词 串 的 令 
搓 哺 融入 C-value 值 之 中 ,形成 EnC -value 方法 ;图 
DepDRC value: 本 文 提出 的 方法 ,首先 使 用 基于 依存 句 
法 荃 析 选 取 修 选 技能 ,然后 融入 候选 技能 的 领域 相关 
性 信息 ,形成 DepDRC -value 方法 。 

实验 结果 如 图 11 -图 13 所 示 。 由 图 11 -图 13 可 
见 ,DepDRC value 方法 的 准确 率 、 召 回 率 和 F 值 均 明显 
高 于 其 他 几 种 方法 ,这 表明 C -value MIC -value .EncC - 
value 方法 并 不 适合 于 网 络 招聘 文本 技能 抽取 。 本 文 
提出 的 DepDRC-value 方法 针对 招聘 网 络 文本 的 特点 ， 
利用 依存 句法 分 析 , 融 合 领域 相关 性 信息 能 够 大 幅度 
提高 C-value 的 准确 率 、 召 回 率 和 下 值 。 

表 6 列 出 了 MIC -value、EnC-value 和 DepDRC -val- 
ue3 种 方法 排序 的 前 10 个 被 抽取 技能 ,正确 技能 使 用 
粗 体 表示 。 由 表 6 可 见 ,MIC -value 方法 使 用 候选 技能 
词 串 的 互信 息 衡量 候选 技能 中 词 的 紧密 程度 。 但 是 ， 
由 于 一 些 非 技 能 词 串 也 高 频 出 现 ,使 得 这 些 词 串 的 互 
信息 值 较 高 ,从 而 导致 错误 的 抽取 结果 。EnC -value 
方法 使 用 邻接 倘 衡量 候选 术语 左右 邻接 词 的 不 确定 
性 ,其 不 确定 性 越 大 ,表明 其 邻接 词 包含 的 信息 越 
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图 11 4 种 方法 准确 率 比较 
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图 12 4 种 方法 召回 率 比 较 
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13 4 种 方法 F 值 比较 


多 , 越 可 能 是 术语 。 然 而 一 些 非 技 能 候选 词 串 其 邻 
接 信息 丰富 ,如 “熟练 使 用 ” 可 以 连接 很 多 种 信息 ， 
具有 较 高 的 邻接 炉 ,造成 错误 的 抽取 结果 。DepDRC- 
value 利用 依存 句法 分 析 , 通 过 引入 网 络 招 聘 文本 辅 
助 集 , 能 够 很 好 地 度量 选 技 能 的 领域 相关 性 ,克服 C- 
value 方法 的 缺点 ,从 而 提高 技能 抽取 的 准确 率 和 召 
回 率 。 


网 络 招聘 信息 中 常 含有 企业 对 所 招 岗位 技能 需求 
的 具体 描述 ,反映 了 当前 就 业 市 场 对 人 才 的 技能 需求 。 
因此 ,通过 分 析 网 络 招聘 信息 ,可 以 了 解 整个 社会 对 某 
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表 6 3 种 方法 前 10 个 被 抽取 技能 


序号 MIC -value EnC -value DepDRC value 
1 相关 专业 熟练 使 用 SQL 语句 
2 工作 经 验 团队 合作 Linux 常用 命令 
3 团队 合作 精神 具有 良好 关系 数据 库 MySQL 
4 沟通 能 力 以 上 工作 经 验 SQL 查询 语句 
5 学 习 能 力 独立 完成 MySQL 主 从 复制 
6 需求 分 析 能 独立 SQL 关系 数据 库 
Java 开发 熟悉 常用 关系 数据 库 SQL 
8 相关 工作 经 验 SQL 语句 JavaScript 程序 模块 
9 责任 心 强 能 够 独立 MySQL 关系 数据 库 
10 团队 协作 能 力 SQL 数据 库 Lamada 表达 式 
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抽取 招聘 文本 中 的 技能 ,以 进行 技能 需 有 
才 


领域 人 才 的 技能 需求 。 然 而 ,网 络 招聘 信息 往往 为 非 
4 构 化 文本 ,传统 的 技能 需求 分 析 方 法 通常 需要 手工 
分 析 。 显 然 ， 


抽取 招聘 文本 中 的 技能 信息 很 难 满足 大 数据 量 


地 


ee 网 络 招聘 信息 分 析 要 求 。 本 文 针对 


招聘 文本 的 特点 ,利用 依存 句法 分 析 选 取 候 选 技 
sh I 领域 相关 性 概念 ,将 候选 技能 领域 


区 性 融入 Csale 方法 之 中 ,以 自动 抽 取 网 络 招聘 文 


a 进一步 地 ,未 来 工作 将 尝试 依据 
寺 


技 起 需 3 


oi 


提出 的 方法 针对 大 数据 
言 息 ,能 够 从 海量 网 络 招 聘 文本 中 自动 、 快 


召 聘 文本 中 抽取 的 技能 信息 ,进行 热门 招聘 岗位 
分 析 ,为 学 生 教师、 高校 提供 有 指导 性 的 岗 
能 需求 信息 。 


HT 


参考 文献 


[ iGWoWCZK0 1. Skills and vacancy analysis with data mining tech- 


Cjniques[] . Informatics, 2015, 2(4) :31 -49. 
[ 2] KIM J Y, LEE C K. An empirical analysis of requirements for data 
scientists using online job postings [J]. International journal of 
software engineering and its application, 2016, 10(4): 161 — 


[6 


1 


172. 
MAURO AD, GRECO M, GRIMALDI M, et al. Beyond data sci- 


i 


entists: a review of big data skills and job families[ C]//Proceed- 
ings of the 2016 international forum on knowledge asset dynamics. 
Berlin: Springer Intemational Publishing, 2016: 1844 - 1857. 

] 吕 斌 , 张 通 , 周 球 . 面向 组 织 的 具有 通用 性 的 情报 职业 及 情报 从 
业 人 员 一 一 基于 组 织 招聘 网 页 信息 挖掘 的 分 析 之 一 [可 .图 书 

情报 工作 , 2009, 53(4) : 19 -23. 

] 李 国 秋 , 桑 培 铭 . 情报 过 程 一 一 情报 职业 的 核心 :问题 域 及 方法 
论 一 一 基于 组 织 招聘 网 页 信息 挖掘 的 分 析 之 二 [J 了. 图 书 情 提 

工作 , 2009, 53(4) : 24 -27. 

] 夏 火 松 , 潘 徐 听 . 基于 Python 挖掘 的 大 数据 学 术 研 究 与 人 才 
需求 的 关系 研究 [J]. 信息 资源 管理 学 报 , 2017, 7(1):4- 
12. 


3 


| 


12 


[10] 


[11] 


[12] 


[13] 


[14 


和 


[15] 


[16] 


[17] 


[18] 


[19] 


[20] 


[21] 


js 


[22] 


[23] 


[24 


刘 害 伦 ， 


黄 谍 , 王 凯 飞 , 王 丙 丙 
情 学 科 人 才 培 养 的 启 


珊 , 等 . 数据 类 岗位 招聘 需求 调查 及 对 图 
示 [ 可 .图 书 情报 知识 , 2016 ,6(1 ) :42 - 


FRANTZI K, ANANIADOU S, MIMA H. Automatic recognition of 
the C-value/ NC -value ，method [ J]. 
tional journal on digital libraries, 2000, 3(2) :115 -130. 
SODHI M S$, SON B G. Content analysis of OR job advertisements 


multi-word terms:. Interna- 


to infer required skills[ J ]. The joumal of the Operational Research 
Society, 2010, 9(1): 
ZHAO M, JAVED F, JACOB F, et al. 1 SKILL.: a system for skill 


1315 — 1327. 


identification and normalization [ C ]// Proceedings of the twenty - 
seventh conference on innovative applications of artificial intelli- 
gence. Palo Alto: AAAI, 2015 : 4012 -4017. 

XU T, ZHU H, ZHU C, 


et al. Measuring the popularity of job 


skills in recruitment market: a multi-criteria approach [| C ]//Pro- 


ceedings of the 32nd AAAI conference on artificial intelligence. 
Menlo Park: AAAI, 2018 : 3013 - 3028. 
詹 川 . 基于 文本 挖掘 的 专业 人 才 技 能 需求 分 析 一 一 以 电子 商 


务 专业 为 例 [J]. 图 书馆 论坛 , 2017, 5(1) : 116 -123. 

夏 立 新 , 楚 林 , 王 忠 义 , 等 . 基于 网 络 文本 挖掘 的 就 业 知识 需 
求 关 系 构建 [J]. 图 书 情报 知识 , 2016,，169(1 ) :94 - 100. 
BASTIAN M, HAYES M, VAUGHAN W, et al. LinkedIn skills: 


large -scale topic extraction and inference[ C |]// ACM conference 
on recommender systems. New York: ACM, 2014:1 -8. 

叶 文 豪 , 高 瑞 卿 ,等 . 基于 大 数据 岗位 需求 的 文本 聚 类 
研究 [J]. 数据 分 析 与 知识 发 现 , 2017, 12(12): 32 -40. 
CONRADO MD, PARDO T A, REZENDE S 0. A machine learn- 
ing approach to automatic term extraction using a rich feature set 
[C]// The North American chapter of the Association for Compu- 
tational Linguistics. Stoudsburg: ACL, 2013.: 16 -23. 

PIAO S$, FORTH J, GACITUA R, et al. Evaluating tools for auto- 
matic concept extraction: a case study from the musicology domain 
[C1]//Proceedings of digital features. Piscataway: IEEE, 2010: 
78 —85. 

SPASIC I, GREENWOOD M, PREECE A， 


et al. FlexiTerm. a 


flexible term recognition method[ J |]. Journal of biomedical seman- 

tics, 2013, 4(1) :27 -42. 

MAYNARD D, ANANIADOU S$. Identifying terms by their family 

and friends[ C]// Proceeding of the 18th conference on computa- 

New York: ACM, 2000 :530 -536. 

周 霜 霜 , 徐 金 安 , 陈 钰 栅 , 等 .融合 规则 与 统计 的 微 博 新 词 发 
现 方法 [站 . 计算 机 应 用 , 2017, 37(4) :1044 -1050. 
赵 京 胜 , 朱 巧 明 , 周 国 栋 ,等 .自动 关键 词 抽取 研究 综述 
软件 学 报 , 2017, 28(9) :2431 -2449. 

刘 怀 军 ,车 万 翔 , 刘 挺 .中文 语义 角色 标注 
文 信息 学 报 , 2007, 21(1): 79 -84. 
哈尔滨 工业 大 学 语言 技术 平台 LTP[ EB/OL]. 

30 ] . http://ir. hit. edu. cn/ demo/lip. 

CHE W, LI Z, LIU T, A Chinese language technology platform 


tional linguistics. 


可] 


的 特征 工程 LJ. 中 


[2018 - 12 - 


俞 瑞 ， 陈 夭 ， 姜 金 德 ， 等 . 网 络 招聘 文本 技能 信息 自动 抽取 研究 [J]. 图 书 情报 工作 ,2019 ,63(13 ) :105 - 113. 


[C1]//The 23th international conference on computational linguis- 陈磊 :数据 清 洗 ; 
tics. Stroudsburg: ACL, 2010: 3 - 16. 半 姜 金 德 ， 分 析 数 据 修改 论文 ; 
< 

作者 页 献 说 明 赵 乃 斑 : 修 改 论文 

俞 下 : 提 出 研究 思路 ,设计 研究 方案 ,进行 试验 ,撰写 论 


文 ; 


Research on Skill Information Automatic Extraction from Online Recruitment Texts 
Yu Yan” Chen Lei Jiang Jinde’” Zhao Naixuan 
' Information Service Department, Nanjing Tech University, Nanjing 210009 
? Computer Science Department, Chengxian College, Southeast University, Nanjing 211816 
”School of Business, Nanjing Xiaozhuang University, Nanjing 211171 
Abstract: [Purpose/significance| Aiming at the problem that the current manual skill information extraction from 
the online recruitment post is not suitable for the analysis of large data volume information, this paper proposes an automat- 
icsskill information extraction for a large number of online recruitment texts. [ Method/process | According to the charac- 
tovisics of online recruitment texts, the candidate skills are analyzed by dependency syntax analysis, then the domain rele- 
vanee indicators are used to measure candidate skills, and they are integrated into the traditional terminology extraction 
method to form a method for automatic extraction of skill information from online recruitment texts. [ Result/ conclusion | 
Experiments show that the proposed method can extract skill information automatically, quickly and accurately from the 


mass online recruitment texts. 
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《高 校 图 书馆 发 展 蓝皮书 (2016)》 由 高 等 教育 出 版 社 出 版 


E 

19 “中 国教 育 报 告 。 发 展 与 质量 "系列 报告 之 一 \ 由 教育 部 高 等 学 校 图 书 情报 工作 指导 委员 会 主编 的 《高 校 图 书 
? 。 馆 发 展 蓝皮书 (2016)》, 继 《高 校 图 书馆 发 展 蓝皮书 (2015)》 之 后 ,于 2019 年 3 月 由 高 等 教育 出 版 社 出 版 。 

: 《高 校 图 书馆 发 展 蓝皮书 》 是 反映 中 国 高 校 图 书馆 发 展现 状 的 正式 报告 。 该 书 的 出 版 有 助 于 加 强 高 校 图 书馆 
; ”的 相互 了 解 和 资源 共享 ,促进 高 校 图 书馆 的 科学 管理 ;有 助 于 宏观 的 了 解 和 总 体 把 握 我 国 高 校 图 书馆 的 建设 现状 ， 
: 为 各 级 相关 主管 部 门 和 高 校 图 书馆 制定 政策 与 决策 提供 借鉴 ,以 有 的 放 矢 地 指导 工作 ;为 高 等 教育 工作 者 特别 是 
图 书馆 从 业 人 员 深 入 开展 图 书馆 事业 研究 提供 基础 资料 ,为 广大 社会 公众 了 解 高 校 图 书馆 事业 发 展 提供 重要 的 汇 


道 和 窗口 。 

《高 校 图 书馆 发 展 蓝皮书 (2016)》 的 内 容 包括 :高 校 图 书馆 发 展 概况 .组织 管理 及 人 力 资源 、 年 度 经 费 状况 、 文 
献 资 源 状 况 、 服 务 状况 .科学 研究 与 专业 人 才 培 养 . 合 作 与 共享 .发 展 趋势 和 2016 年 高 校 图 书馆 大 事 记 九 个 部 分 。 
编 扎 中 不 仅 注 重 横向 分 析 ,还 注意 数据 的 纵向 比较 ,以 翔实 的 数据 和 事实 资料 比较 客观 .完整 地 勾画 了 我 国 高 校 图 
书馆 事业 的 发 展现 状 和 发 展 特 点 。 

详情 请 见 :http://www. scal. edu. cn/zxdt/201904040633 


人 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 


RAR 


113 


